美女高潮潮喷出白浆视频,欧美村妇激情内射,日本少妇被爽到高潮无码,CHINESE猛男自慰GV

當(dāng)前位置:100EC>數(shù)字零售>小紅書(shū)首次開(kāi)源文本大模型
小紅書(shū)首次開(kāi)源文本大模型
網(wǎng)經(jīng)社發(fā)布時(shí)間:2025年06月09日 10:26:20

(網(wǎng)經(jīng)社訊)6月9日消息,小紅書(shū)近日開(kāi)源了首個(gè)大模型——dots.llm1。dots.llm1是一個(gè)中等規(guī)模的Mixture of Experts(MoE)文本大模型,由小紅書(shū) hi lab(Humane Intelligence Lab,人文智能實(shí)驗(yàn)室)團(tuán)隊(duì)研發(fā),總參數(shù)量142B,激活參數(shù) 14B。

一、技術(shù)突圍:MoE架構(gòu)與工程創(chuàng)新重構(gòu)成本效率

網(wǎng)經(jīng)社數(shù)字零售臺(tái)(DR.100EC.CN)查詢(xún)DeepSeek后獲悉,在AI大模型軍備競(jìng)賽白熱化的當(dāng)下,小紅書(shū)hi lab團(tuán)隊(duì)推出的dots.llm1猶如一匹黑馬,以142B總參數(shù)、14B激活參數(shù)的MoE架構(gòu),在性能與成本間找到了精妙平衡。這款中等規(guī)模模型采用細(xì)粒度混合專(zhuān)家結(jié)構(gòu),從128個(gè)路由專(zhuān)家中動(dòng)態(tài)選擇前6個(gè),配合2個(gè)共享專(zhuān)家,實(shí)現(xiàn)參數(shù)激活效率的最大化。在32K超長(zhǎng)上下文處理中,其獨(dú)創(chuàng)的UtK策略展現(xiàn)出卓越的長(zhǎng)文本記憶能力,這得益于對(duì)Transformer解碼器架構(gòu)的深度優(yōu)化——用MoE模塊替代傳統(tǒng)前饋網(wǎng)絡(luò),并引入無(wú)輔助損失的負(fù)載平衡策略,通過(guò)動(dòng)態(tài)調(diào)整偏置項(xiàng)確保專(zhuān)家網(wǎng)絡(luò)負(fù)載均衡。

工程創(chuàng)新層面,團(tuán)隊(duì)與英偉達(dá)合作開(kāi)發(fā)的交錯(cuò)式1F1B流水線(xiàn)調(diào)度技術(shù)堪稱(chēng)典范。該技術(shù)將穩(wěn)態(tài)1F1B階段的首個(gè)micro batch前向傳播提前至預(yù)熱階段,實(shí)現(xiàn)A2A通信與計(jì)算的重疊覆蓋,配合優(yōu)化后的分組GEMM算子,在H800GPU上實(shí)現(xiàn)前向計(jì)算14%、反向計(jì)算6.68%的顯著提速。這種硬件協(xié)同優(yōu)化使得模型訓(xùn)練效率飆升,總訓(xùn)練成本僅需146萬(wàn)GPU小時(shí),不到Qwen2.5-72B的1/4,每萬(wàn)億token訓(xùn)練成本更是低至13萬(wàn)GPU小時(shí),重新定義了大規(guī)模模型的性?xún)r(jià)比標(biāo)準(zhǔn)。

二、數(shù)據(jù)哲學(xué):11.2萬(wàn)億token煉就的“人文基因”

在數(shù)據(jù)構(gòu)建上,dots.llm1展現(xiàn)出獨(dú)特的人文視角。團(tuán)隊(duì)摒棄合成數(shù)據(jù),深耕11.2萬(wàn)億高質(zhì)量真實(shí)語(yǔ)料,構(gòu)建起三階段數(shù)據(jù)處理框架:第一階段通過(guò)URL過(guò)濾、trafilatura正文提取、MD5去重等操作,從海量網(wǎng)頁(yè)中萃取優(yōu)質(zhì)文本;第二階段引入MinHash-LSH模糊去重和啟發(fā)式過(guò)濾,剔除廣告、導(dǎo)航欄等噪聲;第三階段利用15億參數(shù)分類(lèi)器和網(wǎng)頁(yè)雜波去除模型,將知識(shí)性?xún)?nèi)容比例提升至60%。這種近乎嚴(yán)苛的數(shù)據(jù)清洗,使得處理后的數(shù)據(jù)集在MMLU、TriviaQA等基準(zhǔn)測(cè)試中表現(xiàn)超越TxT360等開(kāi)源數(shù)據(jù)集。

更值得關(guān)注的是“AI人文訓(xùn)練師”團(tuán)隊(duì)的介入。這個(gè)由哲學(xué)、文學(xué)背景專(zhuān)家組成的特殊團(tuán)隊(duì),與復(fù)旦大學(xué)哲學(xué)學(xué)院合作成立“AI人文人才訓(xùn)練營(yíng)”,通過(guò)指令微調(diào)和拒絕采樣微調(diào)(RFT),為模型注入人文溫度。在倫理思辨測(cè)試中,dots.llm1展現(xiàn)出對(duì)“電車(chē)難題”等哲學(xué)命題的深度理解,在人性化表達(dá)測(cè)試中,其生成的藏頭詩(shī)和天氣組件代碼,既保持技術(shù)精準(zhǔn)度,又充滿(mǎn)生活氣息。

三、開(kāi)源革命:MIT協(xié)議下的技術(shù)民主化實(shí)踐

小紅書(shū)此次開(kāi)源策略堪稱(chēng)行業(yè)標(biāo)桿。除基礎(chǔ)模型外,團(tuán)隊(duì)還開(kāi)放了每1萬(wàn)億token訓(xùn)練節(jié)點(diǎn)的中間檢查點(diǎn),總計(jì)14個(gè)模型權(quán)重全部公開(kāi)。這種“全生命周期”開(kāi)源模式,為研究者提供了透視大模型學(xué)習(xí)動(dòng)態(tài)的珍貴樣本。在GitHub倉(cāng)庫(kù)中,詳細(xì)的lr schedule、batch size參數(shù),以及基于Cybertron框架的完整訓(xùn)練代碼,讓開(kāi)發(fā)者可以無(wú)縫復(fù)現(xiàn)訓(xùn)練流程。

對(duì)比行業(yè)慣例,這種開(kāi)源力度遠(yuǎn)超普通模型發(fā)布。以Qwen2.5系列為例,其僅開(kāi)放最終模型權(quán)重,而dots.llm1的中間檢查點(diǎn)相當(dāng)于提供了模型進(jìn)化的“時(shí)間切片”,使自適應(yīng)繼續(xù)訓(xùn)練(Continue Pretraining)和監(jiān)督微調(diào)(SFT)成為可能。在Hugging Face社區(qū),開(kāi)發(fā)者已利用這些資源展開(kāi)創(chuàng)新實(shí)驗(yàn),有團(tuán)隊(duì)嘗試將中間模型移植到邊緣設(shè)備,實(shí)現(xiàn)低功耗推理。

四、行業(yè)震蕩:開(kāi)源新勢(shì)力的技術(shù)話(huà)語(yǔ)權(quán)重構(gòu)

dots.llm1的橫空出世,在AI行業(yè)激起千層浪。在中文基準(zhǔn)測(cè)試中,其以92.6分稱(chēng)霸CLUEWSC語(yǔ)義理解榜,C-Eval綜合得分92.2分力壓DeepSeek-V3,MATH500數(shù)學(xué)推理達(dá)84.8分,展現(xiàn)出“以小搏大”的驚人實(shí)力。這種性能優(yōu)勢(shì)直接沖擊現(xiàn)有開(kāi)源格局,迫使頭部玩家重新審視技術(shù)路線(xiàn)。Meta某AI研究員在社交平臺(tái)坦言:“當(dāng)中國(guó)團(tuán)隊(duì)用1/4資源達(dá)成相當(dāng)性能,我們?cè)摲此糞caling Law的效率邊界。”

更深遠(yuǎn)的影響在于技術(shù)范式的轉(zhuǎn)變。dots.llm1驗(yàn)證了“優(yōu)質(zhì)數(shù)據(jù)+高效架構(gòu)”可替代“暴力Scaling”的可能性,其未使用合成數(shù)據(jù)的實(shí)踐,更暗示著數(shù)據(jù)合成并非唯一出路。在GitHub倉(cāng)庫(kù)中,關(guān)于數(shù)據(jù)處理流程的討論熱度持續(xù)攀升,有開(kāi)發(fā)者據(jù)此開(kāi)發(fā)出新型網(wǎng)頁(yè)正文提取工具,形成技術(shù)溢出效應(yīng)。

五、未來(lái)演進(jìn):從工具到伙伴的人文智能愿景

站在技術(shù)轉(zhuǎn)折點(diǎn),小紅書(shū)hi lab的野心不止于模型開(kāi)源。團(tuán)隊(duì)正籌建“AI人文實(shí)驗(yàn)室2.0”,計(jì)劃將音樂(lè)智能、空間智能等多模態(tài)能力融入現(xiàn)有架構(gòu)。在技術(shù)路線(xiàn)圖上,數(shù)據(jù)合成技術(shù)被列為重點(diǎn)探索方向,旨在平衡數(shù)據(jù)質(zhì)量與多樣性。更值得期待的是,基于dots.llm1的垂直領(lǐng)域微調(diào)模型已在路上,教育、醫(yī)療等場(chǎng)景的定制化版本或?qū)⒛陜?nèi)面世。

這場(chǎng)由人文智能驅(qū)動(dòng)的技術(shù)革命,正在改寫(xiě)AI與人類(lèi)的互動(dòng)方式。當(dāng)dots.llm1能準(zhǔn)確解讀“弱智吧”式腦筋急轉(zhuǎn)彎,當(dāng)它用藏頭詩(shī)訴說(shuō)打工人的心聲,我們看到的不僅是技術(shù)進(jìn)步,更是AI向人性化邁進(jìn)的堅(jiān)實(shí)步伐。在這個(gè)意義上,小紅書(shū)開(kāi)源的不只是代碼,更是一個(gè)充滿(mǎn)溫度的智能未來(lái)。

浙江網(wǎng)經(jīng)社信息科技公司擁有18年歷史,作為中國(guó)領(lǐng)先的數(shù)字經(jīng)濟(jì)新媒體、服務(wù)商,提供“媒體+智庫(kù)”、“會(huì)員+孵化”服務(wù);(1)面向電商平臺(tái)、頭部服務(wù)商等PR條線(xiàn)提供媒體傳播服務(wù);(2)面向各類(lèi)企事業(yè)單位、政府部門(mén)、培訓(xùn)機(jī)構(gòu)、電商平臺(tái)等提供智庫(kù)服務(wù);(3)面向各類(lèi)電商渠道方、品牌方、商家、供應(yīng)鏈公司等提供“千電萬(wàn)商”生態(tài)圈服務(wù);(4)面向各類(lèi)初創(chuàng)公司提供創(chuàng)業(yè)孵化器服務(wù)。

網(wǎng)經(jīng)社“電數(shù)寶”電商大數(shù)據(jù)庫(kù)(DATA.100EC.CN,免費(fèi)注冊(cè)體驗(yàn)全庫(kù))基于電商行業(yè)18年沉淀,包含100+上市公司、新三板公司數(shù)據(jù),150+獨(dú)角獸、200+千里馬公司數(shù)據(jù),4000+起投融資數(shù)據(jù)以及10萬(wàn)+互聯(lián)網(wǎng)APP數(shù)據(jù),全面覆蓋“頭部+腰部+長(zhǎng)尾”電商,旨在通過(guò)數(shù)據(jù)可視化形式幫助了解電商行業(yè),挖掘行業(yè)市場(chǎng)潛力,助力企業(yè)決策,做電商人研究、決策的“好參謀”。

【關(guān)鍵詞】 小紅書(shū)原創(chuàng)
【投訴曝光】 更多>

【版權(quán)聲明】秉承互聯(lián)網(wǎng)開(kāi)放、包容的精神,網(wǎng)經(jīng)社歡迎各方(自)媒體、機(jī)構(gòu)轉(zhuǎn)載、引用我們?cè)瓌?chuàng)內(nèi)容,但要嚴(yán)格注明來(lái)源網(wǎng)經(jīng)社;同時(shí),我們倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán),如發(fā)現(xiàn)本站文章存在版權(quán)問(wèn)題,煩請(qǐng)將版權(quán)疑問(wèn)、授權(quán)證明、版權(quán)證明、聯(lián)系方式等,發(fā)郵件至NEWS@netsun.com,我們將第一時(shí)間核實(shí)、處理。

        平臺(tái)名稱(chēng)
        平臺(tái)回復(fù)率
        回復(fù)時(shí)效性
        用戶(hù)滿(mǎn)意度
        微信公眾號(hào)
        微信二維碼 打開(kāi)微信“掃一掃”
        微信小程序
        小程序二維碼 打開(kāi)微信“掃一掃”